神经表面重建旨在基于多视图图像重建准确的3D表面。基于神经量的先前方法主要训练完全隐式的模型,它们需要单个场景的数小时培训。最近的努力探讨了明确的体积表示,该表示通过记住可学习的素网格中的重要信息,从而大大加快了优化过程。但是,这些基于体素的方法通常在重建细粒几何形状方面遇到困难。通过实证研究,我们发现高质量的表面重建取决于两个关键因素:构建相干形状的能力和颜色几何依赖性的精确建模。特别是,后者是准确重建细节的关键。受这些发现的启发,我们开发了Voxurf,这是一种基于体素的方法,用于有效,准确的神经表面重建,该方法由两个阶段组成:1)利用可学习的特征网格来构建颜色场并获得连贯的粗糙形状,并且2)使用双色网络来完善详细的几何形状,可捕获精确的颜色几何依赖性。我们进一步引入了层次几何特征,以启用跨体素的信息共享。我们的实验表明,Voxurf同时达到了高效率和高质量。在DTU基准测试中,与最先进的方法相比,Voxurf获得了更高的重建质量,训练的加速度为20倍。
translated by 谷歌翻译
未校准的光度立体声(UPS)由于未知光带来的固有歧义而具有挑战性。现有的解决方案通过将反射率明确关联到光条件或以监督方式解决光条件来减轻歧义。本文建立了光线线索和光估计之间的隐含关系,并以无监督的方式解决了UPS。关键思想是将反射率表示为四个神经内在字段,即\ ie,位置,光,镜头和阴影,基于神经光场与镜面反射和铸造阴影的光线线索隐含相关联。神经内在字段的无监督,关节优化可以不受训练数据偏差和累积误差,并完全利用所有观察到的像素值的UPS值。我们的方法在常规和具有挑战性的设置下,在公共和自我收集的数据集上获得了优于最先进的UPS方法的优势。该代码将很快发布。
translated by 谷歌翻译
自动驾驶汽车(SDC)通常会实施感知管道,以检测周围的障碍并跟踪其移动轨迹,这为随后的驾驶决策过程奠定了基础。尽管对SDC中障碍物检测的安全性进行了深入的研究,但直到最近,攻击者才开始利用跟踪模块的脆弱性。与仅攻击对象探测器相比,这种新的攻击策略以更少的攻击预算更有效地影响了驾驶决策。但是,关于揭示的脆弱性在端到端的自动驾驶系统中是否仍然有效,以及如何减轻威胁。在本文中,我们介绍了SDC中对象跟踪安全性的第一个系统研究。通过一项全面的案例研究Baidu's Apollo的全面感知管道,我们证明了基于Kalman Filter(KF)的主流多对象跟踪器(MOT),即使具有启用的多种多样,传感器融合机制。我们的根本原因分析揭示了脆弱性是对基于KF的MOT设计的天生,该漏洞将错误地处理对象检测器的预测结果,但是当采用的KF算法易于在其与预测偏离的偏差时更容易相信该观察结果更大。为了解决这个设计缺陷,我们为基于KF的MOT提出了一个简单而有效的安全贴,其核心是一种适应性策略,可以平衡KF的重点在观测和预测上,根据观察预测偏差的异常指数,并具有针对广义劫持攻击模型的认证有效性。对基于$ 4 $ kf的现有MOT实施(包括2D和3D,学术和阿波罗的)的广泛评估验证了我们方法的防御效果和微不足道的绩效开销。
translated by 谷歌翻译
在本文中,我们提出了一种名为Matryoshka的新型内部攻击,该攻击采用无关紧要的计划与公开的DNN模型作为覆盖多个秘密模型的载体模型,以记住存储在本地数据中心中的私人ML数据的功能。我们没有将载体模型的参数视为位字符串并应用常规隐志,而是设计了一种新型参数共享方法,该方法利用了载体模型的学习能力来隐藏信息。同时实现Matryoshka:(i)高容量 - Matryoshka几乎没有实用性损失载体模型,可以隐藏一个26倍较大的秘密模型或8个跨越载体模型中不同应用程序域的不同体系结构的秘密模型,这两个模型都不能是使用现有的隐志技术完成; (ii)解码效率 - 一旦下载了已发布的运营商模型,外部颜色可以将隐藏的模型独家解码,只有几个整数秘密和隐藏模型体系结构的知识; (iii)有效性 - 此外,几乎所有恢复的模型的性能都与私人数据独立培训一样; (iv)鲁棒性 - 自然会实施信息冗余,以在出版前对载体上的常见后处理技术实现弹性; (v)秘密性 - 具有不同先验知识水平的模型检查员几乎不能将载体模型与正常模型区分开。
translated by 谷歌翻译
在本文中,我们介绍了VCSL(视频复制段本地化),这是一种新的综合段级注释的视频复制数据集。与受视频级注释或小规模限制的现有复制检测数据集相比,VCSL不仅具有两个段级标签的数据级,其中有160k现实的视频副本对,其中包含超过280k的本地化copied seggment对,而且还包含超过280k涵盖各种视频类别和各种视频持续时间。每个收集的视频对中的所有复制段均经过手动提取,并伴随着精确注释的启动和结束时间戳。除了数据集外,我们还提出了一种新颖的评估协议,该协议可以更好地衡量视频对之间复制重叠段的预测准确性,并在不同情况下显示出改善的适应性。通过使用拟议的数据集和评估指标对几个基线和最先进的细分级视频副本检测方法进行基准测试,我们提供了一项全面的分析,可以揭示当前方法的优势和劣势作品。 VCSL数据集,公制和基准代码均在https://github.com/alipay/vcsl上公开获得。
translated by 谷歌翻译
3D点云是捕获真实世界3D对象的重要3D表示。但是,真正扫描的3D点云通常不完整,并且对于恢复下游应用程序的完整点云非常重要。大多数现有点云完成方法使用倒角距离(CD)训练丢失。通过搜索最近的邻居,CD损耗估计两个点云之间的对应关系,该邻居不会捕获所生成的形状上的总点密度分布,因此可能导致非均匀的点云生成。为了解决这个问题,我们提出了一个新的点扩散细化(PDR)范例,用于点云完成。 PDR包括条件生成网络(CGNET)和细化网络(RFNET)。 CGNET使用称为去噪扩散概率模型(DDPM)的条件生成模型,以在部分观察中产生粗略完成。 DDPM在生成的点云和统一的地面真理之间建立一对一的映射,然后优化平均平方误差损耗以实现均匀生成。 RFNET精制CGNet的粗输出,并进一步提高完成点云的质量。此外,我们开发了两个网络的新型双路架构。该体系结构可以(1)有效且有效地从部分观察到的点云提取多级特征以指导完成,并且(2)精确地操纵3D点的空间位置以获得平滑的表面和尖锐的细节。各种基准数据集上的广泛实验结果表明,我们的PDR范例优于以前的最先进的方法,用于点云完成。值得注意的是,在RFNET的帮助下,我们可以在没有太多的性能下降的情况下加速DDPM的迭代生成过程。
translated by 谷歌翻译
生成辐射田地的出现显着促进了3D感知图像合成的发展。辐射字段中的累积渲染过程使得这些生成模型更容易,因为渐变在整个音量上分布,但导致扩散的物体表面。与此同时,与Radiance Fields相比,占用表示可以本质地确保确定性表面。但是,如果我们直接向生成模型应用占用表示,在培训期间,它们只会在物体表面上接收稀疏梯度,并最终遭受收敛问题。在本文中,我们提出了一种基于生成的辐射场的新型模型的生成占用场(GOF),这些模型可以在不妨碍其训练收敛的情况下学习紧凑的物体表面。 GOF的关键介绍是从辐射字段中累积渲染到渲染的专用过渡,只有在学习的表面越来越准确的情况下,只有曲面点渲染。通过这种方式,GOF将两个表示的优点组合在统一的框架中。在实践中,通过逐渐将采样区域从整个体积逐渐缩小到表面周围的最小相邻区域,在GOF中实现了从辐射场和3月到占用表示的训练时间转换。通过对多个数据集的全面实验,我们证明了GOF可以合成具有3D一致性的高质量图像,并同时学习紧凑且光滑的物体表面。代码,模型和演示视频可在https://shedontsui.g​​ithub.io/projects/gof中获得
translated by 谷歌翻译
生成辐射场的进步推动了3D感知图像合成的边界。通过观察到3D对象应该从多个观点看起来真实的观察,这些方法将多视图约束引入正则化以从2D图像学习有效的3D辐射场。尽管有了进步,但由于形状彩色模糊,它们通常会缺少准确的3D形状,这限制了它们在下游任务中的适用性。在这项工作中,我们通过提出一种新的阴影引导的生成隐式模型来解决这种模糊性,能够学习持续改进的形状表示。我们的主要洞察力是,在不同的照明条件下,精确的3D形状还应产生逼真的渲染。通过明确地模拟照明和具有各种照明条件的阴影来实现这种多照明约束。通过将合成的图像馈送到鉴别器来导出梯度。为了补偿计算表面法线的额外计算负担,我们进一步通过表面跟踪设计了高效的体积渲染策略,将培训和推理时间分别将培训和推理时间减少了24%和48%。我们在多个数据集上的实验表明,该方法在捕获准确的基础3D形状时实现了光电型3D感知图像合成。我们展示了我们对现有方法的3D形重建的方法的改进性能,并展示了其对图像复兴的适用性。我们的代码将在https://github.com/xingangpan/shadegan发布。
translated by 谷歌翻译
Blind image quality assessment (BIQA) remains challenging due to the diversity of distortion and image content variation, which complicate the distortion patterns crossing different scales and aggravate the difficulty of the regression problem for BIQA. However, existing BIQA methods often fail to consider multi-scale distortion patterns and image content, and little research has been done on learning strategies to make the regression model produce better performance. In this paper, we propose a simple yet effective Progressive Multi-Task Image Quality Assessment (PMT-IQA) model, which contains a multi-scale feature extraction module (MS) and a progressive multi-task learning module (PMT), to help the model learn complex distortion patterns and better optimize the regression issue to align with the law of human learning process from easy to hard. To verify the effectiveness of the proposed PMT-IQA model, we conduct experiments on four widely used public datasets, and the experimental results indicate that the performance of PMT-IQA is superior to the comparison approaches, and both MS and PMT modules improve the model's performance.
translated by 谷歌翻译
In this paper, we study the problem of knowledge-intensive text-to-SQL, in which domain knowledge is necessary to parse expert questions into SQL queries over domain-specific tables. We formalize this scenario by building a new Chinese benchmark KnowSQL consisting of domain-specific questions covering various domains. We then address this problem by presenting formulaic knowledge, rather than by annotating additional data examples. More concretely, we construct a formulaic knowledge bank as a domain knowledge base and propose a framework (ReGrouP) to leverage this formulaic knowledge during parsing. Experiments using ReGrouP demonstrate a significant 28.2% improvement overall on KnowSQL.
translated by 谷歌翻译